PBSD: Destilación Bayesiana Privilegiada para Crédito en Horizonte Largo
Descubre cómo PBSD asigna crédito granular en tareas de largo plazo con auto-destilación bayesiana, mejorando el aprendizaje con recompensas dispersas.
Descubre cómo PBSD asigna crédito granular en tareas de largo plazo con auto-destilación bayesiana, mejorando el aprendizaje con recompensas dispersas.
Descubre cómo la atención en los LLM revela un ritmo de preplan y anclaje que optimiza políticas con aprendizaje por refuerzo granular, mejorando el razonamiento.
Descubre LEAF, un método RL que asigna ventajas por tramos en LLMs de voz. Supera a GRPO en QA y traducción, incluso con modelos más pequeños. ¡Lee más!
Descubre Q-Evolve: un marco que permite a los agentes LLM auto-evolucionar optimizando en distribución, mejorando la toma de decisiones a largo plazo con recompensas dispersas.
Q-Evolve permite que agentes LLM se automejoren con optimización en distribución, superando recompensas dispersas. Mayor eficiencia y robustez.
Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.
DyNACO: guía neuronal dinámica supera prioridades estáticas, escala a 100k nodos y reduce tiempo.
Descubre cómo DistIL optimiza el aprendizaje por refuerzo usando retroalimentación rica (trazas, correcciones, autoevaluación) para mejorar en razonamiento, código y matemáticas.
Descubre OAR un nuevo método de GRPO que asigna crédito fino a cada token en razonamiento matemático mejorando el rendimiento sin costo computacional adicional
El Sesgo de Pico por Trazas (TMPB) distorsiona la valoración en RL profundo. La optimización adaptativa lo corrige. Implicaciones para IA y neurociencia.
Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!
DecomposeR optimiza la investigación profunda con RL centrado en planificador y recompensa estructural. Mejora hasta 8 puntos en benchmarks.
MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.
Descubre MACCA, un nuevo marco de MARL offline que asigna crédito causal de forma precisa. Mejora el rendimiento en entornos sin interacción.
Descubre cómo SCOPE mejora el razonamiento de los LLMs con destilación adaptativa dual, logrando un 11.42% más de precisión.
ARCA: método ligero de credit assignment para LLM con LoRA. Usa residuos de adaptadores, evita degeneración. Competitivo en MATH/Qwen3 sin reward model.
SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta.
El nuevo marco Score Broadcast and Decorrelation (SBD) mejora la asignación de crédito por broadcast, con soporte para múltiples pérdidas y resultados superiores en CIFAR-10.